iT邦幫忙

2023 iThome 鐵人賽

DAY 23
0
AI & Data

AI與語音辨識系列 第 23

DAY23 語音辨識的前端—VAD篇 part4

  • 分享至 

  • xImage
  •  

你好!


二、基於高斯混合模型的VAD(之二)

昨天提及WebRTC是由兩個高斯模型組成,而在進行判決時,對每個子頻計算一個二元高斯對數似然比,如下所示:
https://chart.googleapis.com/chart?cht=tx&chl=L(x_i)%3D%5Clog_%7B%7D%7B%5Cfrac%7BP_S(x_i)%7D%7BP_N(x_i)%7D%20%7D%20

其中,Ps(x)為第i個子頻語音模型的機率。Pn(x)為第i個子頻雜訊模型的機率。

在各個子類似然比的基礎上,再計算一個全域似然比:
https://chart.googleapis.com/chart?cht=tx&chl=L(x)%3D%5Csum_%7Bi%3D1%7D%5E%7B6%7D%20%5Calpha_1L(x_1)

接下來,對每個子頻的似然比和全域似然比均進行一次門限判決,具體的門限值由試驗和經驗舉出。為了避免漏判語音,當子類似然比和全域似然比當中有任何一個超過設定的設定值時,最終判決結果就會認為訊號中存在語音。判決結果由下式舉出:
https://chart.googleapis.com/chart?cht=tx&chl=F_%7BVAD%7D%3D%5Cleft%5C%7B%5Cbegin%7Bmatrix%7D%20%201%2C%26%20L(x)%3ET%5Cparallel%20L(x_i)%3ET_i%20%5C%5C%20%200%2C%26%20other%5Cend%7Bmatrix%7D%5Cright.

其中,T是全域門限,而T是第i個子頻的門限。 WebRTC有四組預設的門限值,分別對應四種不同的檢測模式,分別為0:通用模式(Normal);1:低取樣率模式(Low Bitrate);2:激進模式(Aggressive);3:非常激進模式(Very Aggressive)。按照數字從小到大的順序,四種模式的門限值依次變大,即檢出語音的標準越來越高。

在進行判決之後,需要進行高斯模型的參數更新。根據當前VAD的判決結果,WebRTC只進行雜訊或語音模型的更新。當判決結果為1(有語音),就只進行語者模型的更新。當判決結果為0(沒有語音),只進行雜訊模型的更新。

以上的VAD演算法透過子頻的特徵計算和高斯混合模型的自我調整更新,實現了比門限判決法具有更高的堅固性。

//高斯模型部分講解完畢,這部分真的好難好難,公式也很有趣,請多多參考喔!


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY22 語音辨識的前端—VAD篇 part3
下一篇
DAY24 語音辨識的前端—VAD篇 part5
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言